Les Big Data

Durée estimée: 45 minutes

Version textuelle

Introduction

Cette leçon aborde le sujet des Données et de l'Information, et en particulier les Big Data, avec l'enjeu du traitement de données énormes en volume.

Les données et l'information facilitent la création de connaissances. Le traitement informatique permet et donne sa puissance aux mathodes de traitement de l'information, avec un impact considérable sur de nombreuses disciplines, depuis les arts aux sciences en passant par l'économie. La gestion et l'inteprétation d'une quantité énorme de doénnes brutes est un des fondements de notre société de l'information et de notre économie. Nous utilisons des ordinateurs etd es moyens de calcul pour traduire, traiter et visualiser des données brutes et pour créer de l'information. Les capcacités de calcul et la science informatique facilite et permete une nouvelle compréhension des donénes et de l'information qui contribue à la connaissnce du monde. Dans les leçons qui suivent, vous allez travailler sur les donénes avec divers outils et techniques numériques, pour mieux comprendre les manières variées de transformer des données brutes en informations et en connaissances.

Les Big data intègrent des jeux données si gros et si complexes qu'il est devenu difficile de les traiter avec des outils de gestion de données courants ou des techniques de traitement traditionnels.

Ressources vidéo

Introduction aux Big Data

These slides are presented in the following three video segments.

Auto-contrôle

Not yet started
1 point
Vrai ou Faux: Un Teraoctet (Terabyte) est équivalent à 1000 octets (bytes).
Not yet started
1 point
Quelle est la bonne classification de cette affirmation ?
"Plus de 80% des Africains ont un téléphone portable."
Not yet started
1 point
en 2008, il y avait 10 zettaoctets (zettabytes) stockés sur 27 millions de serveurs dans le monde.
Combien de flash drive d'un milliard de teraoctets (terabytes) seraient nécessaires pour stocker cette quantité de données ?
Not yet started
1 point
Le terme de Big Data fait référence à _________________.

Traiter les Big Data

Auto-contrôle

Not yet started
1 point
< Vrai ou Faux: Les feuilles de calcul et les bases de données sont des exemples de logiciels qui permettent de traiter les Big Data.
Not yet started
1 point
Le traitement des données implique de disposer d'autant d'octets en mémoire que le volume en octet des données stockées à traiter.
Not yet started
1 point
MapReduce utilise un algorithme distribué _____________, pour traiter de gros volumes de données.

Exemples de Big Data

Auto-contrôle

Not yet started
1 point
Lesquelles de ces types de données peuvent appartenir aux Big Data ?
Cocher toutes les réponses valides.
Not yet started
1 point
Les Big Data sont importantes parce qu'elles ____________________.
Cocher toutes les réponses valides.
Not yet started
1 point
Lequel de ces points n'est PAS une préoccupation ou l'enjeu de débat sur la collecte de données ?

Exemple de question posée à l'examen

Not yet started
1 point
Le tableau ci-dessous donne le temps qu'il faut à un système informatique pour réaliser
trois types de tâches sur les données clients pour des entreoprises de taille différente.
Tâche Petite compagnie
(environ 100 clients)
Compagnie moyenne
(environ 1 000 clients)
Grande compagnie
(environ 10 000 clients)
Sauvegarde des données 2 heures 20 heures 200 heures
Suppression sélective de données 100 heures 200 heures 300 heures
Recherche sélective de données 250 heures 300 heures 350 heures
Tri des données 0,01 heure 1 heure 100 heures

A partir des informations du tableau, laquelle des tâches suivantes prendra probablement le plus de temps pour une entreprise ayant 100 000 clients ?

Activité: Exploration de jeux de données

Lisez cet article de Wikipedia sur les Big Data, puis examinez de plus près certains des exemples cités dans l'article. Essayez de trouver au moins deux exemples qui vous intéressent. Certaisn de ces exempels comprennent :

  • La visualisation des données Data (Reddit gère le site "Data is Beautiful" qui comprend la visualisation de jeux de données intéressants. Explorez ces exemples.)
  • Données sur la " qdette des étudiants" (Voici une visualisation intéressante de la dette des étudiants réalisée par le New York Times.)
  • Croissance de l'Internet (c'est une représentation interactive de la manière dont Internet a porgressé en relation avec l'introduction de nouvelles technologies.)

Pour votre Portfolio

Créez une page nommée : Données et Information dans la catégorie "Réflexions" de votre portfolio et répondez aux questions suivantes sur les jeux de données que vous avez choisi pour cette activité:
  1. Choisissez un des jeux de données dans la liste citée dans le pargaraphe Activité et faites en une description rapide. Quels sont les types particuliers de données (texe, sons, transactions, etc.) compris dans le je de données que vous avez choisi ?
  2. Quels faits nouveaux avez vous appris en examinant ce jue de données ? Citez au moins trois faits nouveaux pour vous.
  3. REcrivez une question que vous vous posez sur le jeu de données que vous avez choisi. Puis, traduisez cette question sous forme d'hypothèse (une affirmation) sur ce que pourraient révéler les données.
    (Les hypothèses doivent avoir la forme suivante : "Si __________, alors _________." Par exemple, une hypothèse sur la dette des étudiants, serait, "Si les coûts de la scolarité sont plus élevés dans une université, la dette des étudiants sera plus élevée."
  4. Par rapport au jeu de données que vous avez choisi, identifiez au moins un enjeu lié à la sécurité et/ou à la protection des donnes personelles.
  5. Si votre jeu de données comprend une visualisation, indiquez ce que vous trouvez utile dans cette visualisation? Comment pourriez vous la modifier ou l'améliorer ? Si il n y a pas de visualisation, décrivez en une qui serait utile pour comprendre les données.